Loading...
机构名称:
¥ 1.0

在不受控制的环境中,机器人的部署要求它们在以前看不见的场景(如不规则的地形和风条件下)进行稳健操作。不幸的是,虽然从鲁棒的最佳控制理论尺寸较差到高维非线性动力学,但由更可触觉的“深”方法计算出的控制策略缺乏保证,并且往往对不确定的操作条件表现出很小的鲁棒性。这项工作介绍了一种新颖的方法,可以通过将游戏理论安全分析与对抗性增强学习在模拟中结合使用,可与一般非线性动力学对机器人系统的可伸缩合成,并具有一般的非线性动力学。遵循软性参与者计划,寻求安全的后备政策与对抗性的“干扰”代理人共同训练,该代理人旨在引起设计师不确定度允许的模型错误和训练对培训的差异的最严重实现。虽然学习的控制策略并非本质上是固定的安全性,但它用于根据前进性的推出来构建具有强大安全性的实时安全过滤器。该安全过滤器可以与安全性无关的控制政策结合使用,从而排除任何可能导致安全性丧失的任务驱动的动作。我们在5D赛车模拟器中评估了基于学习的安全方法,将学习的安全政策与数值获得的最佳解决方案进行比较,并在经验上验证了我们所提出的安全过滤器对最差案例模型差异的可靠安全保证。关键字:对抗强化学习,模型预测安全过滤器,汉密尔顿雅各比可达性分析

arxiv:2212.03228v3 [CS.LG] 2024年6月7日

arxiv:2212.03228v3 [CS.LG] 2024年6月7日PDF文件第1页

arxiv:2212.03228v3 [CS.LG] 2024年6月7日PDF文件第2页

arxiv:2212.03228v3 [CS.LG] 2024年6月7日PDF文件第3页

arxiv:2212.03228v3 [CS.LG] 2024年6月7日PDF文件第4页

arxiv:2212.03228v3 [CS.LG] 2024年6月7日PDF文件第5页

相关文件推荐

2024 年
¥1.0